ساختارعصبی تقریب تابع مبتنی بر dignet برای یادگیری تقویتی
پایان نامه
- دانشگاه تربیت معلم - تهران - دانشکده فنی
- نویسنده نجمه علی بابایی
- استاد راهنما میرمحسن پدرام
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1391
چکیده
یادگیری تقویتی عبارت است از قالب بندی یک مسئله به فرم یادگیری از طریق تعامل برای رسیدن به هدف. زمانی که فضای حالات و یا کنش ها پیوسته و یا خیلی بزرگ شود استفاده از عناصر حافظه برای نگه داری ارزش حالات بسیار زیاد خواهد شد. این مسئله در رابطه با زمانی که در طول یادگیری ارزش کنش ها به دست آورده می شود، بحرانی تر خواهد شد. علاوه بر حافظه مصرفی مسئله ، داده و زمان لازم برای پر کردن آنها نیز مهم است. بنابراین مسئله تعمیم پیش خواهد آمد.روش پیشنهاد شده برای مسائل یادگیری تقویتی با فضای پیوسته ای از حالت ها و کنش ها مناسب است. در این روش از شبکه عصبی خودسازمان ده dignet برای نمایش فضای حالت و کنش استفاده شده است.استفاده از این شبکه سبب می شود در یک فضای پیوسته، عامل بتواند با استفاده از یک حافظه مصرفی مناسب ،میزان داده و زمان قابل قبول به هدف دست یابد.در پیشنهاد این پایان نامه مفاهیم اساسی یک مسئله یادگیری تقویتی و همچنین یک شبکه عصبی خودسازمان ده dignet بررسی می شود، و ساختار این شبکه به عنوان یک روش خوشه بندی کارا برای حل چالش پیوستگی فضای حالات و کنش ها ،در مسئله یادگیری تقویتی پیشنهاد می شود و کارایی آن بررسی و مقایسه می شود.
منابع مشابه
تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی
مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرف...
متن کاملکنترلکننده مقاوم تطبیقی بار فرکانس مبتنی بر یادگیری تقویتی برای یک سیستم قدرت بههمپیوسته شامل SMES
هدف از این مقاله استفاده از یادگیری تقویتی برای طراحی کنترلکنندههای PID و SMES مقاوم و تطبیقی برای کنترل بار فرکانسی در یک سیستم قدرت دو ناحیهای حرارتی است. ابتدا تنظیم پارامترهای کنترلکنندههای PID و SMES بهصورت یک مسئله بهینهسازی مدلشده توسط الگوریتم تدریس - یادگیری اصلاحشده حل میشود. سپس عملکرد همزمان آنها با استفاده از الگوریتم پیشنهادی مبتنی بر یادگیری تقویتی بهینه میگردد. کنتر...
متن کاملروشی نوین برای یادگیری تقویتی فازیِ باناظر برای ناوبری ربات
: استفاده از یادگیری باناظر در ناوبری ربات های متحرک، با چالش های جدی از قبیل ناسازگاری و اختلال در داده ها، مشکل جمع آوری نمودن داده آموزش و خطای زیاد در داده های آموزشی مواجه می باشد. قابلیت های یادگیری تقویتی همچون عدم نیاز به داده آموزشی و آموزش تنها با استفاده از یک معیار اسکالر راندمان باعث کاربرد آن در ناوبری ربات شده است. از طرفی یادگیری تقویتی زمانبر بوده و دارای نرخ شکست های بالا در م...
متن کاملاثبات رابطه سرگئی وینزکی برای تقریب تابع توزیع نرمال استاندارد
در بین تمام توزیعهای آماری توزیع نرمال استاندارد مهمترین و کاربردیترین توزیع آماری بوده و محاسبه سطح زیر منحنی چگالی و تابع توزیع آن مورد نیاز است. ضابطه این تابع بهصورت یک انتگرال معین بیان میشود، ولی متاسفانه تابع اولیه آن دارای شکل بسته و تحلیلی نیست، لذا باید آن را تقریب زد. در این مقاله رابطه تقریبی سرگئی وینزکی با یک روش جدید اثبات میشود، سپس این تقریب با تغییراتی در رابطه آن بهبود ...
متن کاملیک روش چند عاملی جدید مبتنی بر یادگیری تقویتی برای شکلدهی ترافیک و تخصیص حافظه بافر در روترها
Normal 0 false false false EN-US X-NONE AR-SA MicrosoftInternetExplorer4 ...
متن کاملپیشبینی روند حرکتی قیمت سهام با استفاده از XCS مبتنی بر الگوریتم ژنتیک و یادگیری تقویتی
پیشرفتها در حوزۀ هوش مصنوعی و یادگیری ماشین بهخصوص درزمینۀ محاسبات تکاملی نهتنها ما را قادر به تجزیهوتحلیل مؤثرتر دادهها نموده است، بلکه این امکان را فراهم ساخته که از آنها برای فهم هرگونه الگوی زیربنایی بازارهای مالی استفاده گردد. اقتصاددانان، آماردانان و مدرسان امور مالی همواره علاقهمند به توسعه و آزمایش مدلهای رفتاری قیمت سهام بودهاند. XCS سامانهای مرکب از الگوریتم ژنتیک و یادگیری ...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
دانشگاه تربیت معلم - تهران - دانشکده فنی
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023